卡方拟合优度检验 - 简明教程

By Ruben Geert van den Berg under Chi-Square Tests & Statistics A-Z

零假设 (Null Hypothesis)
假设 (Assumptions)
公式 (Formulas)
效应量 - Cohen’s W
功效和样本量计算 (Power and Sample Size Calculation)

卡方拟合优度检验 (Chi-Square Goodness-of-Fit Test) 检验一个分类变量在一个总体中是否具有某种假设的频率分布。卡方拟合优度检验也被称为：

单样本卡方检验 (one-sample chi-square test) ( SPSS ) 或
多项式检验 (multinomial test) ( JASP ).

示例 - 测试汽车广告

一家汽车制造商想为一款新车发起一项营销活动。他们将展示4种不同尺寸的广告（advertisements，简称 ads）。对于每种尺寸的广告，他们都有4个试图传达某种信息的广告，例如“这款车对环境友好”。然后，他们询问了 N = 80 人，他们最喜欢哪个广告。由此获得的数据在这个 Googlesheet 电子表格中，部分内容如下所示。

那么，哪些广告在我们的样本中表现最好呢？我们可以简单地查找哪个广告最受访客欢迎：频率最高的广告就是每个广告尺寸的众数 (mode)。

所以，让我们看一下第一个广告尺寸 - ad1 - 的频率分布，如下图所示。

观察频率和条形图

此图表中显示的观察频率 (observed frequencies) 为：

安全和家庭友好型：6
奢华和男性化：29
环境友好型：16
宽敞和便利：29

请注意，ad1 具有双峰分布：广告 2 和 4 都是赢家，各有 29 票。但是，我们的数据仅包含 N = 80 的样本。那么我们是否可以得出结论，广告 2 和 4 在整个总体中也表现最佳？卡方拟合优度检验回答了这个问题。对于这个例子，它试图拒绝所有广告在人群中表现一样好的零假设。

零假设 (Null Hypothesis)

通常，卡方拟合优度检验的零假设很简单：

\[H_0: P_{01}, P_{02},...,P_{0m},\; \sum_{i=0}^m\biggl(P_{0i}\biggr) = 1\]

其中 \(P_{0i}\) 表示某个分类变量中 \(m\) 个类别的总体比例。您可以选择任何比例集，只要它们加起来为 1 即可。在许多情况下，所有比例相等是最可能的零假设。对于只有 2 个类别的二分变量，最好使用

二项检验，因为它给出了精确的而不是近似的显著性水平或
1 个比例的 z 检验，因为它给出了总体比例的置信区间。

无论如何，对于我们的示例，我们想表明某些广告比其他广告表现更好。因此，我们将尝试反驳我们的 4 个总体比例都相等且 - 因此 - 为 0.25 的假设。

预期频率 (Expected Frequencies)

现在，如果这 4 个总体比例确实是 0.25，并且我们抽取了 N = 80 个受访者，那么我们预计每个广告将受到 0.25 · 80 = 20 个受访者的青睐。也就是说，所有 4 个预期频率均为 20。我们需要知道这些预期频率有两个原因：

计算我们的检验统计量需要预期频率，并且
卡方拟合优度检验的假设也涉及预期频率。

假设 (Assumptions)

卡方拟合优度检验需要 2 个假设 2, 3：

独立的观察值 (independent observations)；
对于 2 个类别，每个预期频率 \(Ei\) 必须至少为 5。对于 3 个以上类别，每个 \(Ei\) 必须至少为 1，并且所有 \(Ei\) 中不超过 20% 可能小于 5。

我们数据中的观察值是独立的，因为它们是不同的人，他们在完成我们的调查时没有互动。我们还看到，对于我们的示例，所有 \(Ei\) 都是 (0.25 · 80 =) 20。因此，第二个假设也满足了。

公式 (Formulas)

我们将首先计算 \(^2\) 检验统计量，如下所示：

\[\chi^2 = \sum\frac{(O_i - E_i)^2}{E_i}\]

其中

\(O_i\) 表示 观察频率 (observed frequencies)，并且
\(E_i\) 表示 预期频率 (expected frequencies) - 通常都相等。

对于 ad1，这将导致：

\[\chi^2 = \frac{(16 - 20)^2}{20} + \frac{(29 - 20)^2}{20} + \frac{(9 - 20)^2}{20} + \frac{(29 - 20)^2}{20} = 18.7 \]

如果满足所有假设，则 \(^2\) 近似服从具有 \(df\) 个自由度的卡方分布，其中

\[df = m - 1\]

对于 \(m\) 个频率。由于我们有 4 个不同广告的 4 个频率，

\[df = 4 - 1 = 3\]

对于我们的示例数据。最后，我们可以简单地查找显著性水平：

\[P(\chi^2(3) > 18.7) \approx 0.00032\]

我们在此 Googlesheet 电子表格中运行了这些计算，如下所示。

那么这意味着什么？好吧，如果所有 4 个广告在人群中都同样受欢迎，那么找到我们观察到的频率的可能性为 0.00032。由于 p < 0.05，我们拒绝零假设。结论：在整个读者群体中，某些广告比其他广告更受欢迎。

好的，因此可以安全地假设总体比例并不都相等。但它们到底有多不同？我们可以用一个数字来表达：效应量 (effect size)。

效应量 - Cohen’s W

卡方拟合优度检验（以及卡方独立性检验）的效应量是 Cohen’s W。一些经验法则 1 是

Cohen’s W = 0.10 表示小效应量；
Cohen’s W = 0.30 表示中等效应量；
Cohen’s W = 0.50 表示大效应量。

Cohen’s W 计算如下：

\[W = \sqrt{\sum_{i = 1}^m\frac{(P_{oi} - P_{ei})^2}{P_{ei}}}\]

其中

\(P_{oi}\) 表示观察到的比例 (observed proportions)，并且
\(P_{ei}\) 表示零假设下预期的比例 (expected proportions)，适用于
\(m\) 个单元格。

对于 ad1，零假设表明所有预期比例均为 0.25。观察到的比例是从观察到的频率计算出来的（参见下面的屏幕截图），结果为

\[W = \sqrt{\frac{(0.2 - 0.25)^2}{0.25} +\frac{(0.3625 - 0.25)^2}{0.25} +\frac{(0.075 - 0.25)^2}{0.25} +\frac{(0.3625 - 0.25)^2}{0.25} } = \]

\[W = \sqrt{0.234} = 0.483\]

我们在此 Googlesheet 电子表格中运行了这些计算，如下所示。

对于 ad1，效应量 \(W\) = 0.483。这表明观察到的频率和预期的频率之间存在很大的总体差异。

功效和样本量计算 (Power and Sample Size Calculation)

现在我们计算了效应量，我们就可以进行最后 2 个步骤了。首先，功效怎么样？如果出现以下情况，证明效应的概率是多少？

我们在 α = 0.05 处进行检验；
我们的样本为 N = 80；
df = 3（我们的结果变量有 4 个类别）；
我们不知道总体效应量 \(W\)？

下图（在 G*Power 中创建）回答了这个问题。

一些基本结论是

对于大效应量，功效 = 0.98；
对于中等效应量，功效 = 0.60；
对于小效应量，功效 = 0.10。

这些结果不是太好：如果总体效应量为中等且 N = 80，我们只有 0.60 的概率拒绝零假设。但是，我们可以通过增加样本量来增加功效。那么，如果出现以下情况，我们需要哪些样本量？

我们在 α = 0.05 处进行检验；
我们希望功效 = 0.80；
df = 3（我们的结果变量有 4 个类别）；
我们不知道总体效应量 \(W\)？

下图显示了所需样本量如何随着效应量的增加而减少。

在上述条件下，我们有功效 ≥ 0.80

对于大效应量，如果 N = 44；
对于中等效应量，如果 N = 122；
对于小效应量，如果 N = 1091。

参考文献

Cohen, J (1988). Statistical Power Analysis for the Social Sciences (2nd. Edition) . Hillsdale, New Jersey, Lawrence Erlbaum Associates.
Siegel, S. & Castellan, N.J. (1989). Nonparametric Statistics for the Behavioral Sciences (2nd ed.). Singapore: McGraw-Hill.
Warner, R.M. (2013). Applied Statistics (2nd. Edition) . Thousand Oaks, CA: SAGE.